查看原文
其他

DDN公司AI解决方案深度解析(PPT)

常华Andy Andy730
2025-01-01

Source:James Coomer, Kurt Kuckein, Rebecca Lewington; DDN Presents at AI Field Day 3; May 18, 2022

内容概要

《DDN:AI 数据公司》
演讲者:Kurt Kuckein, DDN市场副总裁
  • DDN概况:DDN是一家22年历史的专注于可扩展存储解决方案的公司,起源于高性能计算领域。
  • 人工智能驱动:近年来,随着人工智能的崛起,企业对于更充分利用数据、做出明智决策和创造新价值的需求日益增长。
  • 核心市场和产品:DDN的核心市场包括虚拟化工作负载,产品涵盖了VMstore、EXAScaler并行文件系统、IntelliFlash平台等,专注于提供满足人工智能和大规模计算需求的专用存储解决方案。
  • 新型客户需求:DDN关注企业在PB级别存储挑战中的需求,尤其注重提供简单可扩展、高性能的架构,以满足企业对数据的更快处理和价值创造的期望。
  • 合作生态:DDN是与云合作伙伴成功合作的合格伙伴,与NVIDIA等公司展开合作,提供参考架构。


《AI的挑战和DDN A³I架构》
演讲者:James Coomer
  • 系统性能参数:在可扩展的2U系统中,读取性能为90GB/s,写入性能为65GB/s。读取IOPS为300万,文件创建每秒约为30万。
  • GPUDirect Storage的应用:主要用于吞吐量较大的工作负载,如大型流媒体图像,在处理这些工作负载时可以加速事务。
  • 元数据和性能优化:系统使用智能客户端,该客户端有助于将数据推送到应用程序,而不仅仅停留在存储潜力中。Exa6是一个并行文件系统,具有全面的管理框架,支持在线升级和丰富的企业功能,如客户端加密、SED加密、多租户、实时监控等。元数据在系统中是可扩展的,有40个元数据服务器,可以在单个目录中进行共享。
  • 文件系统架构和并行性:EXAScaler使用Lustre作为文件系统的基础,具有POSIX文件系统的属性,支持配额、空间管理、完整性和校验和、快照等功能。客户端在计算系统或GPU上挂载一个挂载点,通过智能客户端实现并行化。
  • 数据分层和扩展:系统支持在快闪和HDD之间透明地移动数据,具有热池技术,可根据数据活动性进行智能提升和移动。扩展方案包括连接具有内部快闪的控制器,使用HDD进行数据存储,可以通过S3公开数据。
  • 智能客户端的优势:智能客户端了解数据的本地性,通过查询元数据服务器确定数据位置,从而优化性能。客户端在元数据缓存中,可处理多个任务,包括元数据请求,从而实现可扩展的性能。
  • 虚拟化和弹性:系统中的各种服务,包括元数据服务器、对象存储服务器、管理服务器等,都是虚拟化的。系统具有弹性,没有单点故障,全闪存。
  • 用户可见性和管理:系统提供基于Web的仪表板(Insight),用于监控和管理基础设施,显示关于电源供应健康、容量消耗等的信息。


《DDN Insight和Workload Analyzer演示》
演讲者:James Coomer,DDN产品高级副总裁
  • DDN Insight登录和配置: 在演示中登录DDN Insight,配置仪表板,观察驱动器延迟和分布。
  • 工作负载分析: 实时排序运行中的作业,了解存储系统吞吐量消耗,可选择使用IOPS或元数据。
  • 性能识别与图形展示: 利用图形展示总吞吐量,点击峰值查看作业贡献,通过元数据识别资源占用操作,为管理员提供详细性能信息。


《利用Cerebras Systems的晶圆级计算加速AI和HPC》
演讲者:Rebecca Lewington
  • 处理元素(PE)结构:每个处理元素包括通用处理器、本地内存和可编程布线路由器,通过光纤基数为5的连接连接到2D网格和本地处理器。数据传输采用数据流方式,无需中央协调器。
  • 计算需求的指数增长:由于计算需求的指数增长,特别是在人工智能领域,Cerebras Systems认为传统计算方法存在瓶颈,因此提出了晶圆级引擎的创新解决方案。
  • 内存和网络带宽不足:针对内存和网络带宽的不足问题,Cerebras Systems通过大规模晶圆级引擎解决方案来应对,消除内存层次结构和内存结构的限制。
  • CS-2系统概述:CS-2系统是Cerebras Systems的产品,具有85万个核心、2.5万亿个晶体管,采用整个圆柱形硅晶圆。该系统消除了传统芯片制造的限制,采用新的制造方法。
  • 大规模计算和数据流:大规模计算中,CS-2系统通过光纤网络连接,实现了线性可扩展性,可扩展到数以万亿计的参数。数据流工作原理使处理元素在一个时钟周期内实现高效的数据传输。
  • 应用案例:CS-2系统在自然语言处理、药物发现、能源研究、计算流体动力学等领域展示了卓越的性能提升。与传统GPU集群相比,CS-2系统在训练时间上取得了显著的加速。
  • 存储和验证:在大规模工作负载中,存储速度同样关键。Cerebras Systems与合作伙伴共同制定了参考架构,确保存储与计算的比例合适。参考架构经过多年验证,并在大规模测试中得到了验证。


《DDN与NVIDIA AI Enterprise Suite的集成》
演讲者:James Coomer
  • DDN与NVIDIA AI Enterprise Suite集成,包括EXAScaler和A³I,突出整合解决方案。
  • DDN在不同环境中应用,展示Tintri用于虚拟化环境,提及在公有云市场提供EXAScaler。
  • DDN的数据流管理,介绍DDM数据流用于迁移、归档、备份,以及与第三方系统协作,展示数据内容分析。
  • 详谈IntelliFlash,作为统一存储系统,性能介于EXAScaler和普通用例之间,与NVIDIA合作整合虚拟化环境和AI生态系统。
  • 选择DDN的原因,强调在高性能I/O和大规模数据方面的传统,公司专注于存储和大规模数据领域,具备整合能力和专业知识。


---【以下为正文】---

DDN - 人工智能数据公司

我是DDN的市场营销副总裁Kurt Kuckein。在接下来的几分钟里,我将向那些对DDN不太熟悉或者在过去几年没有关注我们的人提供一个简短的概述。

那么,DDN到底是什么呢?我们自称为"人工智能数据公司",这个称号是怎么来的呢?让我们一起回顾一下我们的历史、起源以及发展方向。

DDN并非一家新兴公司,我们已经存在超过22年,专注于解决可扩展存储问题。我们的起源可以追溯到高性能计算领域,为大学、国家实验室以及面临巨大数据挑战的企业提供服务。这些企业涉及企业油气工作流、生命科学研究、药物发现等领域。

然而,在过去几年中,我们目睹了人工智能的崛起,这不仅在大众文化中占据主导地位,而且在企业中也变得越来越重要。企业希望更充分地利用他们正在获取和拥有的数据,以便做出明智、迅速的决策,并创造潜在的新价值。

因此,我们将过去22年的经验和拥有的11000多个客户的经验,融入到全球数千名员工的专业知识中。我们致力于简化人工智能工作流程,使人们能够从他们的数据中获得最大的价值。

让我们简要介绍一下我们的核心市场,我将从左到右进行介绍,并谈谈VMstore。几年前,我们收购了Tintri公司,并且我们在充分利用他们方面取得了很大成功,尤其是在纯企业方面。这主要包括虚拟化工作负载,VMstore是专为虚拟化环境而构建的。此外,它们也涉足微服务、容器化工作流等领域,但今天我们不会深入讨论这些。

然后,我们与我们的网络和云客户有很多交叉点,这些客户充分利用了Tintri为不同的应用提供的服务,并为许多大型网络组织提供了大规模可扩展的工作负载基础设施。

再者,我们在大规模企业、政府和学术领域拥有庞大的安装量,这是我们在高性能和先进计算领域的部署。当前,我们将集中关注我们认为市场增长点所在,尤其是DDN在人工智能和分析工作负载激增的行业中的增长。

DDN,正如我所提到的,是一家全方位的数据解决方案公司,拥有一系列产品,专为虚拟化和容器化环境提供专用存储。几年前,我们还从西部数据公司收购了IntelliFlash平台,现已整合到我们称之为"At Scale"部门中。该部门致力于解决人工智能和大规模计算问题,主要是因为我们看到在人工智能工作流中需要各种类型的存储数据服务,因此我们提供了高性能的并行文件系统,以及虚拟机、容器、块存储、标准NFS服务等。我们还提供了数据去重和复制,用于数据资产的长期存储。我们能够整合所有这些服务,并通过我们称之为DataFlow的单一数据管理层进行管理。稍后,James和William会详细介绍这些。

整个数据环境如今需要一个能够满足数据需求的供应商,无论数据位于何处,都能将其传送到需要的地方,并确保其安全、可靠、共享。因此,虽然像DDN这样的供应商过去可能主要专注于数据中心,但我们看到越来越多的客户正在朝着混合方案迈进,其中一些数据存储在数据中心,通常是高性能数据,因为需要快速分析,最低延迟和最高性能,而其他类型的数据则存储在云中。

是的,我们提到了高性能并行文件系统,还提到了Tintri的虚拟机存储解决方案,那么在这两者之间,你的云存储解决方案是什么?嗯,这更像是这两者的交集,而不是介于两者之间。每个解决方案都以其自己的方式连接到公共云存储,因此两者都不仅仅局限于本地数据中心。

你之前提到你向超大规模的提供基础设施,除了Tintri的解决方案之外,是否还包括你的高性能文件系统,尤其是那些希望进行自然语言处理等操作的用户。嗯,我们在与云合作伙伴方面取得了很大成功,例如云中的SAS Grid。因此,他们仍然关注一些需要定制解决方案的应用程序。

正如我所说,我们看到了DDN一直以来非常擅长的领域与企业现在想要对其数据进行的操作之间的交集。这实际上是将他们的数据重新转化,长时间以来一直专注于保持业务平稳运行,而DDN的At Scale部分并不特别关心这个,因为那是一些小型数据挑战,处理快速交易的块存储,提供NAS共享等。

而DDN真正关心的是企业业务中的数据,他们希望利用这些数据创造价值或做出更快的决策,并以能够迅速推动业务前进的方式来做到这一点。因此,我们看到企业需要解决他们以前没有遇到过的存储层次,这些是以PB为单位的挑战,而不是GB和TB的挑战。因此,他们需要一种全新的架构,不仅能够存储这些信息,而且能够快速处理它们,利用所有新的加速器。

NVIDIA在AI领域的GPU系统中处于领先地位,但我们看到这个领域中其他参与者的需求也在不断增长,像我们今天在这里看到的Cerebras等公司带来了加速AI计算的替代方法。这些公司需要一个合作伙伴,确保IO操作正常运行,并确保他们可以应对可扩展的存储系统,最终确保它对企业客户是可消耗的。

这些是新类别的客户,他们面对的工作负载对他们来说是新的,他们需要让这一切尽可能变得简单,或者至少尽可能简单。

这就是为什么DDN采取的方法是正确的。首先,我们在过去的22年中证明了我们可以处理这些规模的挑战和各种数据挑战。我们的系统允许您实现简单可扩展性,并且您可以集中管理AI数据,从而获得对其的控制范围,确保治理和数据管理变得更加简单。我们能够提供无与伦比的性能,使用非常高效的构建块来实现简单可扩展的性能。最后,确保所有这些数据随着时间的推移以尽可能简单的方式进行管理。

因此,我们实际上为人们需要处理的AI应用程序提供了一整套端到端的解决方案。在这个图像中,我们基本上有一个机架级的解决方案,EXAScaler并行文件系统,我们还将在后面讨论A³I,并且我们可以识别一些微妙的差异。EXAScaler是我们在DDN所有At Scale存储解决方案下使用的并行文件系统,而A³I则是为了让企业客户更容易使用而进行的打包。

然后是IntelliFlash,再次是统一的企业级存储,因此它提供块服务和文件服务,可以同时从同一系统中提供。这在标准企业级存储需求方面非常出色,尤其是在AI工作流中。在这里,它们仍然需要标准的NFS访问,需要能够以简单的方式管理虚拟机和容器,然后我们通过我们的DataFlow产品将所有这些连接在一起,这是综合的数据管理。DataFlow可以进行归档、备份恢复、迁移、复制等操作,对于长期存储,我们提高了IntelliFlash的能力,以满足我们在AI客户中看到的需求,即一个可扩展的存储空间,可以进行去重等操作,用于长期存档。

Kurt,看起来那些是DGX NVIDIA的解决方案,你们是首选的、合适的供应商吗?我是说,你们是否有资格成为合作伙伴?

我们虽然不是NVIDIA的经销商,但我们是完全合格的合作伙伴,我们将在稍后详细介绍。我们拥有SuperPOD和POD系统的参考架构,

这两种情况下都连接了EXAScaler和IntelliFlash解决方案?

在某些情况下可能不是全部,但是是参考架构的一部分。这当然是一个可行的步骤,有些客户可能会选择从并行文件系统一侧入手,而其他客户实际上可能会从标准企业级存储一侧入手,然后以后再实施并行文件系统。我们在客户那里有这两种应用场景。

对于目录和容器存储,你们有IntelliFlash解决方案,但你们也为归档提供了它,所以你们有不同的存储介质,对吧?

是的,它可以部署为全闪存或混合系统。这也是我们在过去几年中所做的事情之一,将它们纳入我们的硬件系统中。你们有90个驱动器托架,这是DDN经常做的事情,一直处于密度和性能的前沿。

DataFlow解决方案是软件吗?

是的,它只是我们应用的软件,我们也提供设备。

这并不仅仅关乎设备或技术,还关乎经验。正如我们之前提到的,我们并不是在可扩展存储需求方面的新手,我们已经有22年的经验,拥有一支深厚的专家团队,他们一直在处理这些挑战,并且能够帮助人们不仅仅是在存储方面。存储是一个重要的基础部分,当然是我们提供的,但我们的专业知识延伸到网络,一直到计算系统,当我们谈论洞察力时,您将会得到这一点,即我们通过该软件提供的可见性,但它也延伸到我们的顾问,他们正在帮助人们实施、优化应用程序、优化IO,一直延伸到整个网络,不仅仅专注于存储盒本身。

这是我们与公司合作的模式,确保始终获得卓越的反馈和评价,特别是在解决这些可扩展存储问题方面。这是一份大约16个月前的Intersect360报告,所有指标中,HPC用户中,DDN被评为第一。


AI的挑战和DDN A³I架构

我是James Coomer,我是DDN的高级产品副总裁。

我将谈一下AI的挑战,首先是概括性的,然后深入到EXAScaler文件系统的基本架构。

你会看到我们,在底层它被称为EXAScaler,并且我们将其品牌化为A³I,实际上是对我们与NVIDIA和其他IPU和GPU供应商进行的资格认证、基准测试和优化的打包。因此,当你看到A³I时,也可以认为这实际上是EXAScaler文件系统,但进行了为AI进行优化的调整。我将以非常基本的层次来讨论架构,以便你可以看到在根本上文件系统如何适应这些挑战。

首先,如果你最近接触到术语"AI工厂"(AI Factory),实际上是一种查看AI基础设施的方式,无论是在云端还是在本地,它允许设计系统的人以一种方法论的方式进行分析。这个类比是与工厂进行的,所以在右边,我们有数据进来,工厂的原材料是数据,它进入到一个数据AI平台中,物理设施或云基础设施显然在运行AI作业,管理过程,运行IT的是人,这些人正在推动一系列过程,这本质上将是这个AI管道,这本身是一个重要的主题。这些管道在这个平台上运行,然后产生产品。这只是一个构造,让我们以某种逻辑方式分析每个区域。

在我们深入研究之前,我要说一下,我们有16个运行DDN的SuperPOD,远远占据了它们中的大多数,约90%,这只是SuperPOD,还有许多更小规模的POD。通常我们发现,客户进行了POC,然后投入了生产,通常他们一直在使用的是常规的企业级存储,我们发现他们在这个小图上所示的挑战。

首先是直接的性能问题,这是一个有趣的问题,因为通常人们会查看存储系统的规格,它将有一个名牌数字,比如20GB/秒或一百万IOPS,什么的,这是快速的存储,我会使用它。但他们忽略了一个真正的问题,那就是你能否将存储设备内部的潜在性能暴露给应用程序,因为用户只关心这一点。所以当用户说工作速度太慢时,人们会百思不得其解,通常是因为存储和应用程序之间的数据路径没有进行优化。

其次是间歇性故障,网络存储需要专业知识,一些问题需要进行故障排除,这通常是DDN 20多年经验的优势,想象一下我们一直在构建这些系统,极大规模的系统,多年来一直是世界上最大的超级计算机,你从人和软件那里得到的是应对这些突发状况的能力。这些突发情况发生在有很多客户的情况下,网络受到很大压力,应用程序到处都在,复杂的事情发生。

第二件事是摄取这些数据。数据摄入过程对于像欧洲的一个自动驾驶客户来说可能会很困难,他们真的正在将数百TB每秒的数据推入存储系统,获取问题对于许多存储系统来说确实很棘手。所以当一辆车穿过城市时,它有激光雷达相机,从街上获取数据,通常有一个人在那里用iPad检查监督学习过程,但这些相机的数据相当庞大,每秒几GB,激光雷达和雷达也是如此。当它最终到达数据中心时,通常一辆车会在车辆内有100到200TB的数据,所有这些数据都需要以某种方式移动到AI基础设施中,以便进行处理,以便将数据应用到深度学习基础设施中,并对这些数据进行训练。因此,这个摄入问题从存储的角度来看,是一个写的问题,我们正在写入存储,这很重要,因为有些存储系统非常适合读取,但写入不那么理想,我们确实需要有写入的能力,这是非常重要的基本观点对于AI存储来说,不要忘记写入,我稍后会详细介绍这一点。

然后在这个中间位置的一个问题是关于隔离化,我认为我们在行业中看到了这一点的重复。对于AI客户来说,最大的挑战之一是,一旦我们运行了POC或者甚至是正在运行的生产系统,我如何扩展它,如何将新的AI解决方案集成到我的基础设施中,通常最大的障碍是我如何将数据传递给正确的数据科学家,我如何共享它,它在这里,被锁在一起,它在不同的安全系统中,它被存储系统的性质所隔离。

这些是我们通常看到的典型问题。只是深入到AI工厂的各个领域,在这里我看着管道,管道是获取、处理、训练、生产,然后存储,它与传统的HPC工作负载或甚至传统的分析工作负载不同,我会说这个获取过程是一个艰巨的任务,通常是数百TB,或者在NLP中,你可能每天带入五到十百万份文件,这将成为许多许多流的不同的IO问题,但你仍然是将它写入存储中,你同时进行所有其他的事情。

当我看着你的幻灯片,如果我要使用通常的术语,比如训练和推理,我会说前三个项目符合训练概念,最后的项目是推理,现在推理和训练的硬件要求显然是不同的,意味着当我考虑训练时,我认为有大量的数据,但是批处理使用GPU,而在推理方面,它更实时,处理模型,你是否看到相同的基础设施或存储用于训练和推理?

是的,你说得对。深度学习通常进行多个epoch的训练,我们可能会在后面谈到这一点,所以从存储的角度来看,计算与存储或IO的比率很高,通常在深度学习中,计算与IO的比率相对较高。相反,推理的情况完全相反,计算并不多,相对轻量级,但显然你会通过大量的数据,但我们会部署相同的基础设施,以及我们如何设计它,计算与闪存的比率,网络连接的数量在这两种模型之间会有所改变。你指出的后半部分可能更多地基于推理,但在现实中更为复杂,存在反馈循环,因此通常你不仅仅是存储东西然后不再使用,这往往是非常活跃的存储。很少会只是将存储设备放在那里不再触及它,通常会将其重新引入以对模型进行再训练,这是一种不同的方式,存储需要保持活跃,不能只是将其放在磁带库中然后忘记它,通常会被反复使用。

你所说的这是一个新的数据挑战,但我们甚至在AI系统之外也有IoT,比如智能电表、交通监控、健康数据,那么对于AI而言,这些挑战有什么独特之处,我同意这些都是挑战,但是有什么特别的,是AI系统的特定挑战,你现在告诉我们这些挑战是什么?

是的,谢谢。首先,我想我们应该对AI进行划分,有一种是像计算消费者偏好分析之类的AI,这往往使用结构化数据,就像你的IoT问题一样,这些通常是小数据问题,大量的比特和字节通常会进入数据库。我们确实处理大规模的AI,这往往涉及到非结构化数据,可以是文件、文档,但通常是视频、音频、激光雷达等,所以真正的数据量很大。我提到了自动驾驶,比如真实的客户每天每辆车都会产生200TB的数据,每辆车都会有多个城市,每个城市都有多个大陆,你很容易获得,而且我们的客户确实在做这些事情,产生了数百PB的数据,这是从典型的IoT场景中很难得到的。所以数据的数量是巨大的。我认为我们曾经有过大数据,但这并没有进入AI系统,这是我试图阐明的界线。我们有视频数据进来,但不会进入AI系统,比如用于记录和日志,制造业的IoT也是一样,也许不是像你所说的每天有数百万辆汽车,但我试图让你解释一下其他非常大的非结构化数据问题的区别。

所以我认为关键在于"深度"这个词,深度学习的关键是它找到了一组新的算法,无论你提供多少数据,决策变得更好、更准确,从AI模型的角度来看,这是一个突破。在AI的最新一代之前,这是不可能的,之前提供的数据越多,它并没有变得更好,深度学习就是这样,提供的数据越多,你的模型就变得越好,即使对于结算也是如此,但我会归功于你。有人要求我指出我们所做的不同之处,我也想讲一下架构,但首先从高层次上来说,我们所做的不同之处在下面四张幻灯片中将快速展示一下,然后再提问。

首先是我们的存储系统,你将在后面看到一些数字,但我们可以从2U这么大的设备中拉取65GB/s,我是说它可以做300万的IOPS,这意味着我们可以实时摄取数千万的文档和视频。因此,如果你将DDN与其他存储系统进行比较,只看机架图和正确的性能数据,你会发现我们在每个机架单元、每美元、每瓦特等方面都具有非常强大的写性能。

其次,在这里有很多细节,我们不能详细讨论,但过去的四年里,我们确实在AI数据生命周期的各个领域构建了优化,大约三年前,我们支持了GPUDirect Storage,这是一种从存储中将数据直接推送到GPU内存的机制,绕过CPU,我们对这个堆栈中发生的事情进行了优化,你有AI框架在容器中运行,运行在GPU上,在网络上跨多个轨道上,跨多个轨道到存储,在每个点上都有优化,对框架进行了优化,这个特殊的调用被称为nmap,通常用于将内存映射到AI框架中,对于将数据推送到这些容器中的容器进行了优化,对于像GDS等GPU进行了优化,对于这些系统利用多轨的优化,以并行方式将数据传输到这些系统中,这里有很多东西,我们会给你一些提示,但这太深奥了,不能详细讨论。

至于存储方面,你以后会看到一些图片,我们有一种可以提供Flash速度的架构,使我们的客户,我说的通常是,即使在每100PB中有数十个字节的情况下,使用全闪存做数十PB的工作在某种程度上是不切实际的,因此我们可以有效地进行存档,但在一个活跃的存储系统中,我将向你展示如何。

存储如何真正帮助我们的客户解决这些关键问题,他们有数据科学家,他们必须找到他们,他们必须留住他们,我们必须让他们保持高效,我们在优化工作流的各个方面所做的所有努力确实帮助了。

摄取是我猜想是重的,对吧,但训练是重读的工作负载,我的意思是你对EXAScaler解决方案的优化是否同时针对这两者,你知道一些文件很大,而一些文件相当小,比如图像等,这是优化的另一维度,需要进行多方面的IO需求空间。

很好的问题,你说得对,你必须全部做到,你必须进行写入,进行随机写入,进行读取,进行随机读取,进行元数据操作,你必须进行IOPS的读取和写入,而且不仅仅是从存储角度来看,而是从应用程序的角度来看。

简单回答你的问题,在这个可扩展的2U系统中,我们对读取有90GB/s的能力,对写入有65GB/s的能力,我们对读取有300万IOPS的能力,对文件创建每秒有约30万的能力,直截了当的回答,在2U平台上能够进行扩展,但在底层真正做了哪些优化,这就是这个并行文件系统方法与NFS方法相比的差异,我将尝试在接下来的几张幻灯片中解释一下。

我假设我们所谓的GPUDirect Storage更多地应用于训练方面,而不是摄取,是这样吗?

不一定,只是对吞吐量较大的工作负载,比如大型流媒体图像,GPUDirect Storage往往可以通过增加50倍的吞吐量来加速事物。具体优势取决于存储系统,但正如Ray所说,它不会用于摄取,而会用于训练。

对于一些性能参数,我是说,这些完全是纯粹的随机读和写吗?考虑到多个应用程序同时尝试处理数据,我们只是提供性能数字而没有实际进行训练。

这并不能很好地解释性能,你说得很对。从存储的角度来看,这是名义上的数字。我们从2U中能够进行顺序读取的速度是90GB/s,顺序写入的速度是65GB/s,以及从2U中能够进行300万个随机读取的4KB IOPS。但你说得很对,重要的是应用程序看到的是什么。我认为最好的证明是实际来自NVIDIA运行MLPerf的数据,我们在16个基准测试中有14个的领先数字,与NVIDIA的诚实系统相结合。当然,如果我们要谈论真实的个别应用程序和基准测试,MLPerf可能是其中一个主要的基准测试之一,并非唯一,我们实际上在这方面处于领先地位。

让我跳过去,因为我想谈谈EXAScaler的架构,这实际上是告诉你为什么我们能够取得这些数字的核心。

我们所做的特殊之处在于,我们能够将数据推送到应用程序,而不仅仅让它停留在存储潜力中。因此,exa6是我们的最新版本,它是一个并行文件系统,但它并不是一个单一的功能系统。它提供吞吐量、IOPS和元数据。我们有一个全面的管理框架,支持在线升级,丰富的GUI界面。我们可以在系统内在池之间透明地移动数据,具有客户端加密、SED加密、多租户、实时监控等丰富的企业功能。最重要的一点是,它是并行的。

那么什么是并行呢?许多系统声称自己是并行的,而我们添加了“真正”这个词来区分自己。不同之处在于,我们在计算端安装了一个智能客户端,并且该客户端随着计算的增加而扩展,有助于整个系统的扩展。这涉及规模和性能,这就是这个智能客户端帮助我们将数据移动到应用程序的魔力所在。

应用程序本质上是在计算系统或GPU上挂载一个挂载点,该挂载点由我们的软件直接暴露,我们的软件通过网络与存储上的虚拟化网络层进行通信,因此我们的存储真正扩展到计算中。我们在计算中安装软件,这意味着很好。

关于元数据在哪里?嗯,好问题,我会在稍后的幻灯片中回答,大约在四张幻灯片后。

你提到的智能客户端是运行的数据是否分片?好问题,我有答案,我们很快会回到这个问题,也许保罗会在接下来的三张幻灯片中解释一切。

好的,从这张图中你可以看到的一个主要观点是应用程序层中的每个线程都是并行工作的,记住这一点,图中没有其他东西,底部是我们的系统,我没有画后端网络,也没有画后端的JBOD或网络,这就是你所需要的,你将我们的系统连接到网络,由于并行文件系统的魔力,这就是你所需要的。

关于EXAScaler,大约三年前,我们从英特尔收购了一个名为Lustre的文件系统,实际上我们过去20年一直在使用它。在过去的五年中,我们加速了对它的开发,尤其是在过去的三年中,自从我们收购了那个团队以来。这就是EXAScaler的基础,因此在EXAScaler的核心是Lustre。你可以看到,所有这些都与人工智能相关,最近从Intersect360和IDC出来的一些声明基本上表明由于某种原因,NFS并不太好,我们需要这种智能客户端的方法,而这正是我们所做的。

因此,在大多数AI环境中,你会有很多存储,而并非所有存储都在特定时间进行处理。因此,人们使用分层存储。在你的情况下,你使用Lustre作为前端,可以称之为基于Lustre的POSIX。那么,如果通过Lustre连接到对象存储,你会如何操作呢?因为我认为这个问题是因为Lustre本身并不原生支持对象存储层级,是吗?

嗯,我们做法有些不同,我稍后会回到这个问题,并向你展示我们如何进行分层以及我们如何以比将两个命名空间固定在一起更好的方式进行分层。抱歉再次推迟这个问题,但我在大约三张幻灯片后会有一张图片。

这个图片的重点是说我们的核心是Lustre,我们在全球拥有主要的开发团队,然后我们在此基础上构建,并有一个商业版本,带有额外的功能等,称为exa6,它在我们的设备上运行。

现在我们正在变得非常基础,这应该是事情变得更加清晰的地方。所以我们是一个POSIX文件系统,我们有你在普通Linux系统上挂载的东西可能期望的属性,我们有配额,可以进行空间管理,我们有完整性和校验和,可以执行快照,从应用程序的角度来看,一切都感觉正常,就像是在你的笔记本电脑上或者NFS文件系统上的本地快速系统一样,但是一个并行文件系统,由于之前的问题,实际上对数据进行了分片。

在上面的这个小云中,文件系统被挂载到客户端上,应用程序写入挂载点,基本上由我们的智能客户端接收,并且分片到那些服务器上。下面是重点,我可能会重复三次的是我们的智能客户端理解数据的本地性,它知道首先在哪里放置数据,其次从哪里读取数据,这个智能对并行化至关重要。

如果你有一个NFS客户端,无论它多么高级,它都不知道数据在哪里,它会去问任何服务器,但因为这个数据不在那里,那个服务器就必须做一些其他的事情来检索那个数据,但基本上,并行文件系统是这样的,我们在服务器之间分享,并行文件和客户端知道数据在哪里,所以实际上我们的架构有点像这样。

在客户端上,每个单独的线程将写入运行在计算系统上的软件,我们的EXAScaler客户端然后会与元数据服务器通信,找出要放置这个数据的位置,然后它将以并行方式流式传输这些分片,并且它们将以循环方式进行分条。实际上,在这里有相当复杂的方法,但根据策略,它将对这些文件的内容进行分条,读取也是一样的,对多个服务器进行并行读取,并且它直接写入一些服务器,然后它们将代码提升到底层架构下的一组存储,然后你有这样一个观念,即客户端是智能的,它们知道数据在哪里,它们必须找出,它们将与一个或多个元数据服务器进行通信,我们稍后再来讨论,但基本上是什么样的服务。

抱歉,我有一个基础性的问题,当你说它知道它的智能在哪里放置数据时,是因为它在优化性能还是它在使用那种智能来做一些其他类型的决策?

它在做什么。所以当我说它知道时,它实际上是在问,它问元数据服务器,它管理整个系统或者我应该说元数据服务器,元数据服务器会告诉它某个特定文件的布局,然后客户端将遵循元数据服务器的命令。现在你问,你知道它是如何优化的,为什么要智能地做这个,答案非常明确,里面有很多要分解的,但我将给你一些例子,如果你有一个具有索引起始区域的文件,该区域是随机访问的,然后在它之后有一组镜像数据,那是一种特殊的文件,你可以在EXAScaler中应用一个策略,即如果我们只给出该文件的第一部分,那么让我们只是将其在三个服务器上进行复制或三重化,然后随着文件的扩展,我们获得这些镜像数据,让我们进行条带化。这是很好的,因为你会得到对于那个三重集的索引查询来说非常低的延迟,然后对于文件的其余部分来说,你会得到超大带宽,这正是我们所做的,所以你可以在目录级别、文件级别应用策略,然后客户端将在系统中运行优化数据。

所以基本上你的客户端在元数据缓存中?

它将会缓存元数据。

这实际上是你在主机上安装的客户端的整个目的,是元数据缓存?

那么它将缓存元数据,但如果不在缓存中,它还会查询元数据服务器。

好吧。

实际上如果你真的想要细节,它在这页上,但基本上这张幻灯片的重点不是深入技术细节,而是说我们有可扩展的元数据服务器,所以在一个单一的并行文件系统中你可以有40个元数据服务器,所以可能是一个数据中心中的机柜和机柜的系统,也可能非常紧凑,我很快会向你展示我们如何在物理上实现这一点,但有很多元数据服务器,在单个目录中我们将在元数据服务器之间进行分片,并且在扩展时将自动消耗和平衡多个元数据服务器上的元数据负载。

所以早些时候有一个关于如何扩展元数据的问题,我们通过一些复杂的方式来做,但是我们在一个目录内进行共享,同时在一个文件系统中以相当复杂的方式进行共享。

所以这一切的关键是,一个运行在应用程序上的单个线程现在可以看到并行文件系统的带宽,可以获得并行文件系统的IOPS,并从单个线程获得可扩展的元数据请求,这真的是关键,重点不是存储系统快,而是我们实际上可以将潜力推向一个单个线程或一个单个客户端,这真的是我们所做的关键区别,与NFS相比,我们是如何在物理上实现这一点的。

多年来,我们一直在采用这种方法。实际上,你可以从这张图片中看到,我们所做的是,这些服务,元数据服务器、对象存储服务器、管理服务器以及服务器本身都是虚拟化的,它们都运行在这个系统内,这个系统就是 EXAScaler。所有的功能都是完全弹性的,没有单点故障,全闪存。比如在这个示例中,我们展示了其他硬件实现的例子,但基本上答案是我们虚拟化了所有这些服务,这意味着我们的质量保证非常非常健壮,因为我们有一个系统,而不是一堆不同的服务器方案,它们都打包在一起,客户的体验要好得多,他们只需部署这个系统,如果他们在那里部署那个盒子,他们将看到90GB/s的吞吐量,有足够的客户端,他们将看到65GB/s的写入和300万 IOPS。

在这个系统内,仅仅是这个系统就有24个NVMe SSD,因此它将拥有大约700TB的存储,而且仅仅是这样,没有其他任何东西,全部都是快闪存和全部都是 NVMe,连接到您的网络,您就会看到这些数字,65和90GB每秒,这是第一个答案。

第二个答案是,如果您想要扩展,如果您想要使用HDD,如果您有数百PB的数据,那么您可以使用这些扩展方案。基本上,连接到具有内部快闪的控制器,您可以有这些90个盘位的机箱,最多可以有10个。然后您可以得到,比如说最右边的这个将提供大约16PB。还有一点是William已经提到的热池技术,我们可以在快闪和HDD之间在后台透明地移动数据,所以扩展发生了,它不是对象,它仍然是POSIX,你只是使用HDD而不是NVMe/Flash,确切地说这是一件好事。

我们可以通过S3公开所有这些数据,所以不是说它不能作为对象访问,它可以,但你不用处理两个命名空间。这对客户来说最好的结果、最好的原因是,当用户读取数据时,它不在前端缓存中,不在快闪中,几乎没有惩罚。我们只有一个命名空间,所以我们直接从HDD中读取,没有从快闪中检索然后写入的延迟。所以当你有系统将数据移回到外部S3归档时的问题是,当用户想要使用该数据时,突然间它故障等待S3调用填充主数据,然后提供数据,我们不这样做,我们直接从HDD中提供。所以经常使用的数据永远不会被提升,一旦在硬盘上永远在硬盘上。

不,我们有这个热池,William提到的,它会观察整个系统中数据的活动,会将冷数据提升或者将热数据移动到冷池中,所以我们有一个在后台工作的后台活动。但最坏的情况是你从HDD中读取。所以有一个导向,只是用户不知道它正在发生,这是透明的。是的,我是说它不必,他们可以自己提升它们有一个API。

我提到了这个智能客户端,有一个有趣的方面是拥有这个智能客户端,我们可以做一些其他人无法做到的事情。这是一个Insight的图片,它是一个基于Web的仪表板,用于监控和管理我们的基础设施。您可以在这张图片中看到,您正在查看电源供应健康等方面的情况,消耗了多少容量。但有趣的事情是在这里,我们可以谈论Insight一个小时,但我们不会这样做。

这是差异化的部分。当应用程序将数据发送到我们的文件系统时,我们的客户端还将该请求标记为用户ID、作业ID和客户端ID,服务器接受后,我们将其拉入数据库,我们可以将其呈现回来。


DDN Insight和Workload Analyzer演示

在这个小演示中,我们将登录DDN Insight。登录后,我们会看到一些初始的仪表板,可以根据需要进行配置。

在这种情况下,我们观察到一些驱动器的延迟和这些延迟的分布。

接下来,我们将进行工作负载分析。我在这里稍作停顿。

系统实时对运行中的作业进行排序,本例中是通过吞吐量进行排序。尽管这只是一个演示系统,因此数字并不很大,但对于每一行,它代表了系统上运行的不同作业。从存储的角度来看,我们可以告诉你哪些作业正在消耗存储系统的吞吐量。你可以选择使用IOPS或元数据来完成这项工作。这很重要,因为这些系统中最常见的问题之一是某个用户执行了一些不寻常的操作,比如编写了一个脚本,在目录中创建了数十亿个文件,而管理员通常不会知道问题出在哪里,如果系统速度变慢是因为某个地方有物理问题或瓶颈。有了这个工具,管理员可以准确地确定通常的情况是某个用户对存储系统进行了某些资源占用的操作。

这是相当独特的,实现这一点并不容易。我们接收这些RPC请求,将它们整理打包,通过数据库进行读取,管理员可以准确地看到是谁在做什么,以及这些操作来自哪个客户端。如果我们继续往前看,你还可以在图形上看到这一点。在这里,我们呈现了所有作业的总吞吐量,但如果我点击峰值,它将向我展示贡献到该峰值的确切作业,以及哪个作业是主要原因,这些工作负载可能是AI框架,也可能是其他任何东西,导致性能达到饱和状态。尽管在这种情况下我们并没有真正达到饱和状态,但当然也是有可能的。

我们非常喜欢这个功能,这是我们目前的方向。在这个领域,我们正在取得更多的进展,因为我们从存储角度实际收集的元数据是相当独特的。考虑到人们讨论过的数据中心架构,利用这些元数据通常对于理解整个基础设施内部发生了什么,并优化一切以保持高可用性是非常强大的。


利用Cerebras Systems的晶圆级计算加速AI和HPC

我们成立于2016年,我们的第一款产品在2019年推出,名为CS-1,基于晶圆级引擎WSEWafer-Scale Engine) 。我们一直强调这是世界上最大的芯片,但是是什么让我们认为世界需要另一家人工智能芯片初创公司呢?

是计算需求的指数增长。

我相信你们都看过这个图的不同版本,但它确实说明了一个观点。就在2019年,最大的网络大约有1亿个参数,当时我们认为这已经相当庞大了。但在短短两年内,我们从1亿增加到近2000亿,这是1800倍的增长。而且这不仅仅是计算需求,还包括内存需求。现在我们有比这还要大得多的模型,而且增长没有放缓。如果你绘制这些数据,最大网络的增长是指数的,比摩尔定律快12倍。这是一个令人恐惧的增长,而且看不到尽头。

我们知道有些人早些时候提到过,这些东西越大,它们就越丰富,就越能提供更多的洞察,更准确地进行下游任务的执行。所以这很容易,我们知道如何进行横向扩展,只需向事物添加更多节点即可。

问题在于,随着规模的不断扩大,这样做并不奏效。这是一些数据,仅绘制了GPU的一些MLPerf结果,无论是哪个GPU都一样。随着从几个系统到几百个系统的扩展,你会看到在理论和实际之间存在巨大的差距。这是不可避免的。当你必须处理跨数百甚至数千个设备的互连内存瓶颈时,你所能做的事情有限。

因此,我们看到这一点,我们的创始人看到这一点并说,如果我们要从零开始,我们想要做什么?我们想要摒弃所有这些瓶颈,摒弃内存层次结构,并打破陈规。

现在我们已经意识到这是一个机会的融合,不仅仅是在AI领域,相似的问题也存在于HPC领域。

再次,右边是另一个老生常谈的图,显示内存带宽和网络带宽的增长不足以跟上处理过程的改进,它们落后了。当你思考分布式计算时,每当你需要在节点之间移动任何数据时,你都受限于延迟有限的网络。而今天最快的网络给你的延迟大约是两纳秒,因此,如果你在讨论迭代,这当然是深度学习和大多数HPC代码关注的内容,这给你一个大约每秒50万次的限制。如果你可以将其保留在芯片上,突然之间,你谈论的是纳秒级的延迟,你可以达到十亿次的水平,代价就在这里,这是一个相当大的代价。

所以,在我们处理AI、HPC以及融合HPC和无处不在的IO系统的工作负载时,有相似的需求。它们都需要大量的稀疏线性代数计算,至于稀疏性的讨论,如果有机会,我们将在稍后进行。此外,它们还需要大量的通信带宽和大量的内存。我们的解决方案是一种新型处理器,我们称之为晶圆级引擎。

第一次我要提出的问题是数字确实令人印象深刻,有85万个核心,有2.5万亿个晶体管。在它的中心有一个孔。一般来说,芯片上是不会有孔的。它使用整个圆柱形硅晶圆,这是一个非常庞大的硅片。我们实际上必须与TSMC合作找到一种制造如此大的芯片的新方法,因为它远远超出了传统的限制。对于了解芯片制造方式的人来说,你知道在小芯片上有制造的限制,这就涉及到我下一张幻灯片。

数字当然令人印象深刻,但在上下文中更为引人注目。现在我并非在批评A100,它在单个微影光刻限制内是最为重要和令人印象深刻的工作,就像邮票大小的芯片。但通过扩大规模,我们不仅仅能获得100倍的核心数,还能获得1000倍的SRAM,因为内存层次结构的顶部是最好的位置。由于我们现在可以以单周期延迟移动数据,我们的内存带宽增加了13,000倍,横跨整个设备的总线带宽增加了46,000倍。这些都是惊人的数字。

但你不能只是把这个东西放在上面加个散热片,然后插上一个PCIe卡,你必须构建一个系统,而这正是我们所做的。这就是Cerebras CS-2系统,Cerebrus CS2系统。这显示了一些安装在Arcolo附近的标准机架中的设备数量。它很容易安装到标准机架中,它是一个网络附加的加速器,有自己的IP地址,不依赖于主机服务器。而且安装非常迅速,你把它推进去,连接水冷,大约半天的时间你就可以运行了。

顺便说一下,让我们稍微拆开其中一个。在里面,门后的一切都是可更换的,前面的部分都是那些可能会损坏的风扇的东西,

然后在后面,我们有它的内部,我们称之为发动机块。之所以叫发动机块,是因为至少在我看来,它有点像一个三缸汽油发动机。整个东西的目标是保护那个晶圆。这里的所有东西都是电源传递,数据通过底部和顶部进入,然后这是换热器,它保持设备处于稳定的温度。

如果我们再仔细看一下,顺便说一句,如果你访问我们的网站,在系统页面下有一个精美的动画版本,你可以玩一下。你可以看到这些是供电的电源,从前方为晶圆引入电源。我们不能通过侧面引入电源,因为功率密度太高,会融化,而且电线会很粗,根本行不通,所以我们通过顶部引入。如果你计算一下,我们大约谈论的是20,000安培,电压约为0.8伏特,这是非常令人印象深刻的数字。这里有一些非常令人印象深刻的数字。然后,晶圆本身夹在电源系统和一个冷板之间,冷板从其背部散热。数据从晶圆的边缘进入,通过这两个I/O板,它们还包含光学引擎,因为我们将数据以光学域的形式引入系统,然后将其转换为电能。

那么这就是差距,也许Rebecca你已经提到过,但是如何让数据如此迅速地进出系统呢?我是说,如果有成千上万的核心在处理数据,你在强烈供电,我理解这一切,但将大量数据迅速输入到这个解决方案并从中输出肯定是一个问题。

确实,这可能确实是一个问题。你可以看到,在系统的前面有这些板,这些是光学以太网端口。有12个,每个100Gbit,总共1200Gbit。光学网络的输入/输出速度为1.2TB/s。你可以看到这个系统安装在机架上,并有一些支持节点。但根据工作负载的不同,机架上可能有一些普通的pizza box服务器,负责数据整理。而底部的机柜实际上就是Cerebras系统本身,不包括存储或其他任何设备。

不,支持和支持节点实际上充当一个缓存,有效地用于其他地方。但40GB的SRAM足够了,足以容纳任何网络,多达数百亿个参数。超过这个范围,我们必须切换到不同的执行模式,我今天没有时间详细介绍,但这个系统在系统间实现了线性的可扩展性,可以扩展到数以万亿计的参数。我们知道它能够正常工作,我们知道它至少能够处理100万亿个参数,这是我们称之为脑量级的程度,相当令人恐惧。

那么这些连接是以太网连接,是吗?是的,来自外部世界的以太网连接。外部世界看到的是支持节点。

好的,我们都见过一些出色的硬件项目因为没有相应的软件堆栈而无法实现。这个非常非常简单,用户只需使用标准的TensorFlow或Python代码,翻转一些库调用,让其调用我们的库而不是标准库,然后就可以运行了。编译器负责将其分解为中间表示,将其匹配到不同层和功能的当前预写内核,然后将它们放置在晶圆上,物理上排列在晶圆上的第一部分、第二部分、第三部分,然后创建可执行文件。

我们还为HBC用户提供了一个SDK,允许他们直接为处理元素编程。

简要来说,每一个这85万个核心,实际上我们称之为处理元素,因为“核心”这个词有点模糊。每个都包含一个为稀疏线性代数设计的通用处理器、本地内存和一个可编程的布线路由器,带有一个光纤基数为5,连接到2D网格和到本地处理器。这意味着我们可以在一个时钟周期内从处理器到处理器或从内存到处理器传输数据,我们称之为数据流,因为没有中央协调器来保持所有这些运行。当数据到达时,数据包告诉处理元素要做什么,进行计算、传递数据等等。这就是数据流的工作原理。

好的,让我们讨论一下一些实际的例子。使用自然语言处理现在在制药领域相当普遍,但我们知道我们的朋友在GSK公司认识到,仅仅通过基因组还不足以进行准确的药物发现,因为我们过去认为基因组是一份蓝图,但实际上你需要理解表观基因组,即基因组周围的所有信息,以准确知道事物在真实生物体中如何表达。问题在于,这意味着需要更复杂的自然语言处理模型和更大的数据集,而这今天导致了人们难以处理的训练时间,而我们就是在这时介入,提供了比他们16 GPU集群快10倍的速度。

如果你回忆一下之前的那个扩展图,如果要匹配训练时间,你需要远远超过160个GPU,这是他们所需要的。我们知道他们喜欢这个结果,因为他们写了一篇论文,看到我们的名字和论文标题真是太好了,他们写了一篇名为“由Cerebrus提供支持的表观基因组语言模型”的论文。这些数字是令人印象深刻的,而且他们强调了易用性。

我们的另一家制药客户提到,由于实验成本高,其中包括时间、人员、电力和系统,开发者在试图改进模型时实际上会受到惩罚。这使得人们能够通过不同的方法迅速尝试,一直持续尝试,直到找到有效的方法。

Rebecca,我只是想理解一下,如果你能回到之前那张比较图,16 GPU节点解决方案并不是指16个GPU,而是16个新型AL表观基因组模型的GPU。是的,这几乎是多个GPU每个节点,对吧?

这是一个拥有16个GPU的节点,

哦,好的。这是与Cerebras相比,它具有几乎千倍的性能,计算等等。这样理解是否正确,因为它是否公平比较?

是的,这是一个公平的比较,因为在比较一个盒子与另一个盒子时,你在比较一台有16个GPU的盒子与另一台更大的Cerebras盒子。

是的,首先,第一点,第二点,你的晶圆级别的计算密度更高,我们称之为每平方英寸的计算密度。绝对不公平。哦,好吧,谢谢。是的,绝对不公平。好的,我只是试图理解这个比较有多公平,因为这是这个事情的方式。GPU装满的盒子是这些事情的方式,而我们的主张是对于这些大型的高端工作,有更好的方式。你不必忍受这些事情的次线性扩展。

让我给你一个来自TotalEnergies的加速能源研究的例子,从HPC方面来说。我们在TotalEnergies研究和发展美国公司有一些朋友,能源业务充满了重大决策,比如我们要在哪里钻孔,这个地点对碳封存是否有效,我们在哪里建立风电场等等。每个决策都有后果,它们必须迅速做出,因为这是一个非常激烈的行业,它们正在投入巨大的资源,只有在进行了钻探并发现模拟是否正确时,他们才会知道他们是否在正确的地方钻探。

因此,他们非常有兴趣获得更好的HPC,他们始终在寻找改进,他们需要相当边际的改进,想象一下他们得到了与单个GPU相比两个数量级的性能提升,这是他们的基准,因为通常他们会运行基准,然后拿到内部去做他们自己的事情。

他们也写了一篇论文,除了令人印象深刻的性能提升外,因为228个GPU的性能提升是相当大的,他们喜欢的是算法以前是内存受限的,现在是计算受限的,而且近乎完美的弱扩展性。这些都是使他们非常高兴的事情,他们正在全世界各地告诉人们他们有多高兴。

然后,再举一个HPC加AI的例子,我们在Argonne国家实验室有两个系统,事实上,他们刚刚升级到新系统,这总是一个好迹象。他们正在进行一项研究,与很多其他人一起,以了解COVID复制机制的运作。所以这是一个复杂的生物机制,数十亿、数千万个原子在三个维度中运动,这是一项重大科学工作,它在全球四台超级计算机上运行,来自12个实验室的研究人员参与其中。

我们的任务是计算导向的部分,因为这些模拟需要很长时间,非常昂贵,你希望知道它们是否出错。因此,他们使用了在循环中不断训练的计算变分自动编码器来确定实验是否朝着正确的方向进行。他们对我们很满意,因为这个系统大致相当于100个GPU。他们还很喜欢,写了两篇论文,一篇使用他们自己的内部系统,另一篇使用这个真正庞大的系统。我喜欢的一点是,通过让我们参与导向,他们能够在整个大型实验的总体时间解决方案上获得50倍的提升。

好的,再来一个纯HPC的例子,国家能源技术实验室负责国家的能源安全。他们正在使用我们的系统进行CFD应用,这使用了一个模板算法,正如你所期望的那样。这通常是受限的事情,但在每个核心上都受内存速度的限制,因为你在元素之间循环时,问题的大小受到了节点之间传输速度的限制。

那么,你对这些系统的存储有多少有什么了解,DDN的Exascale、AIX或者这些配置中的400个节点有多少存储?我是指,你显然展示了令人印象深刻的计算速度提升,但在这个领域存储也有一席之地,我只是想了解它在哪里发挥作用。

或许Kurt,也许你能回答一下你之前的问题。

是的,我们很幸运,数据首先到达我们这里。CFD是计算流体动力学,这是一种用于建模诸如空气和液体流动的方式。

你说的对,这是一个很好的问题,它牵涉到这个问题的存储组件在哪里。我认为回到James的一个最初的幻灯片,围绕ML工厂的那个,我们现在有很多不同的机器在处理数据的不同部分,或者说它们有特定的工作流部分。有些是CPU集群,有些是GPU,还有一些是Cerebras系统,它们还有其他的东西。这是关键的一点,那就是你能提供这种数据吗?

是的,回到威廉的幻灯片,我们有多个部署,其存储速度在每秒多TB的范围内,但是每个节点的速度都是90 GB每秒的顺序读取。所以,要达到每秒TB的速度,就需要10个这样的设备,这是我们在谈论的内容。

所以,你知道,我们与合作伙伴一起制定的参考架构的一部分就是确保比例是正确的。如果你有两个Cerebras系统,你需要x个AI 400 x2在你的机架上才能构建出来。当你扩展这些时,你购买了五个更多,因为你在开发更加密集的模型,你使用相同的构建扩展。

我注意到有两位在房间里的人做出了两个很棒的观察。有一个是在线上的那个,这真的是疯狂的东西,以一种好的方式。我认为这追溯到DDN的独特之处,我们已经在这个领域很久了,处理这些问题。但是我们已经简化了它,Cerebras可以在一个系统中完成所有这些事情,DDN每秒从一个系统中提取90 GB,通过可扩展的构建块将这些东西组合在一起,它们只是线性地扩展。所以,我们简化了很多这个领域的工作。过去可能需要一个博士来管理这些系统,现在却是标准的IP管理。

还有一点我认为非常重要,我认为我们必须总结并把它交还给James来完成。最重要的部分也是在过去的四年中建立起来的,这是大量的工作,例如参考架构等。我们有很多有趣的事情,每个人都有参考架构,但我们的参考架构已经经过验证,已经验证了三四年了。因此,我们在大规模上进行了测试,客户正在运行各种工作负载,并发布验证数据,类似于Cerebras在这里展示的论文,验证他们的解决方案实际上产生了很大的差异。对于整个生态系统,我们也是如此,没有其他存储提供商有这种深度的水平。


DDN与NVIDIA AI Enterprise Suite的集成

我想简要介绍一下,除了之前提到的EXAScaler外,我们还有一些其他的东西,我们称之为A³I,专为我们的目标受众而设计。

希望我们已经向您证明了它具有一些出色的核心架构,非常适合这个领域。我们并没有深入讨论技术特性以及如何管理多个epoch的培训等细节,这些内容可能会在以后讨论。

Kurt一开始展示了这张幻灯片,我们提到了Tintri,这是一个专为管理虚拟化环境而设计的系统。

我们在公有云方面也没有深入探讨,尽管我们展示了硬件,且硬件性能非常出色,但我们也在AWS、Google GCP和Azure的市场上提供EXAScaler。我们还提供了Terraform脚本,使客户能够在这些平行文件系统平台上以纯软件定义的方式运行分析和AI。即使我们的销售大多基于设备,但我们完全支持以软件定义模式在这些公有云实例中运行。

再次回到将所有这些产品融入一个画面的话题,我想用一个例子说明DDN如何在一个重要的应用场景中用于提供完整解决方案。我们已经讨论了A³I,显然它将服务于高吞吐量、高IOPS、高元数据、高压力I/O密集型等方面,其中AI是一个关键组成部分。IntelliFlash性能不错,但其真正的优势在于为各种核心IT应用场景提供服务,因此它将支持SMB、支持NFS、提供FC、提供iSCSI、支持VMware环境,同时也支持其他虚拟化环境,具有强大的容器支持,同时通过文件和块支持Kubernetes。因此,它是构建整个基础设施的一个很好的补充。正如我们提到的,它还支持去重和压缩,并基本上使一些实时场景更加具有成本效益。

围绕这一切是DDM DataFlow,可用于不同的目的。在这里,我们看到一个漂亮的小UI,展示了如何使用它将来自竞争系统的数据迁移到DDN上。它可以与第三方系统一起工作,将数据从云端推送到云端,或从第三方系统推送到DDN等等。

除了迁移之外,它还执行归档和备份操作,将两个文件系统同步在一起。正如您在这张图片中看到的,它还对数据内容进行一些分析,并将其呈现给您,以更深入地了解数据层面发生了什么。

接下来,我想更详细地谈一谈IntelliFlash,因为我们最近进行了一些工作。正如我所说,它是一个统一的存储,支持多个协议,性能虽不及EXAScaler,但在2U平台上可以达到每秒20-40GB,并扩展到一个命名空间中的5PB,性能相当强大。但它支持这些其他应用场景,它们基本上都在AI生态系统的某个地方发挥作用,通常涉及容器、虚拟机、可能还有数据库等等。只是为了向您展示一下这是什么样子。

我们与NVIDIA合作发布了一种方法论,旨在帮助那些是VMware客户的企业更轻松地进入AI领域,或许无需处理容器的复杂性或新颖性。因此,我们最近进行了一些测试,以了解如何使IntelliFlash和EXAScaler与之对应,以支持NVIDIA所谓的"NVIDIA AI Enterprise"。我们有一段视频,稍后会分享,因为我们不想花太多时间,但我会给您看一个小小的片段。

想象一下,如果您正在运行IntelliFlash,通常IntelliFlash将支持虚拟机,可能是容器,但通常是虚拟机。我们可以设置这个系统,创建一个数据池,专门用于支持虚拟化环境,支持在运行这些AI框架的虚拟机上的VMDK。然后,在视频中,我快进了一点,我们可以创建不同的标签,围绕不同的数据池进行组织。在这里,如果您看上方,您可以大致看到有数据存储统计数据,这基本上是支持虚拟化环境的存储的一部分。

我们会做同样的事情,创建一个新的池,但在这种情况下,我们使用NFS和SMB,基本上我们将提供一个工作空间。您可能希望使用NFS或SMB来存放参数文件或AI框架周围的可执行文件等,这样您可以轻松地从Windows机器等地方访问。在这种环境中,我们使用IntelliFlash,并在顶部可以看到我们可以监视与虚拟机相关的I/O活动,以及与数据存储分开的来自一个如此小的2U设备的活动。

我只是想迅速跳到这里,给您一些兴奋的感觉,然后我们就以一些花哨的GUI内容结束。但是,真正想要说的是,你知道,将这些东西结合在一起,我们提供了一个完整的解决方案。

最后一张幻灯片可能与之前提到的一些问题相关,为什么组织选择DDN。我想William在这里抢了我的风头。

首先,我们非常出名的一点,我们的传统真正在于高性能I/O,高性能数据,大数据,任何I/O挑战变得庞大且棘手的地方。我们的并行面向体系结构多年来确实发展出来,以应对性能挑战,尤其是在事物变得高度可伸缩的时候。

其次,正如William所说,我们所做的一切都是存储和大规模数据,从DataFlow、IntelliFlash、VMStore到EXAScaler、A³I,都在数据大规模和存储的领域,我们在这方面相当独特。在关于我们的公司的方面,我们百分之百专注于客户在数据周围所做的事情。

最后,它是执行力和专业知识,事实上,NVIDIA自己说选择DDN的主要原因之一是我们能够非常快速地与他们的系统进行整合,具备高度的执行力和专业知识。


---【本文完】---

期受欢迎的文章:

  1. 加速GPU环境下的存储IO(57页PPT)

  2. 闪存与AI相互影响,及闪存价格前景

  3. 6家存储系统公司的客户反馈(最喜欢的/最不喜欢的)

  4. 解锁AI/ML的高性能文件系统

  5. MLPerf发布最新推理和全新存储基准测试结果



更多交流,可添加本人微信

(请附姓名/关注领域)

继续滑动看下一个
Andy730
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存